复合现象在梵语中无处不在。它用于表达思想的简洁性,同时丰富语言的词汇和结构形成。在这项工作中,我们专注于梵语复合类型标识(SACTI)任务,在其中我们考虑了识别复合词组件之间语义关系的问题。早期的方法仅依赖于从组件获得的词汇信息,而忽略最关键的上下文和句法信息,对SACTI有用。但是,SACTI任务主要是由于化合物组件之间隐式编码的上下文敏感语义关系。因此,我们提出了一种新颖的多任务学习体系结构,该体系结构结合了上下文信息,并使用形态标记和依赖性解析作为两个辅助任务来丰富互补的句法信息。与最新系统相比,SACTI基准数据集上的实验显示了6.1分(准确性)和7.7点(F1得分)绝对增益。此外,我们的多语言实验证明了拟议的架构在英语和马拉地语中的功效。代码和数据集可在https://github.com/ashishgupta2598/sacti上公开获得。
translated by 谷歌翻译
如今,对混合代码的兴趣已在自然语言处理(NLP)中变得普遍存在;但是,对于语音翻译(ST)任务解决这一现象并没有太多关注。这完全可以归因于缺乏由代码混合的ST任务标记数据。因此,我们介绍了Prabhupadavani,这是一种用于25种语言的多语言代码混合ST数据集。它是多域的,涵盖了十个语言家庭,其中包含130多名演讲者的94小时语音,并手动与目标语言的相应文本保持一致。 Prabhupadavani是关于吠陀文化和遗产的文献,在文献中引用文学的情况下,在人文教学的背景下,代码转换很重要。据我们所知,Prabhupadvani是ST文献中第一个可用的多语言代码混合ST数据集。该数据也可用于代码混合的机器翻译任务。所有数据集可以在https://github.com/frozentoad9/cmst上访问。
translated by 谷歌翻译